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Beschreibung 

Verfahren zur Sprachverarbeitung 

Die Erfindung betrifft Verfahren, eine Anordnung und ein Com- 
puterprogrammprodukt zur Sprachverarbeitung. 

Verfahren und Anordnungen zur Sprachverarbeitung sind etwa 
aus US 6 029 135, US 5 732 388, DE 19636739 CI und DE 
19719381 CI bekannt. Insbesondere die Realisierung multilin- 
gualer und sprachraumunabhangiger Sprachsynthesesysteme ba- 
siert zu einem grofien Teil auf datengetriebenen Modulen. Die- 
se Module, zum Beispiel Prosodiegenerierungsmodule, verwenden 
in der Regel Lernver f ahren . Die Lernver f ahren konnen im All- 
gemeinen gut fiir mehrere Sprachen und Anwendungen eingesetzt 
werden. Jedoch mussen oft die Eingangsgrofien muhsam per Hand 
optimiert werden. 

Fur den Fall der symbolischen- Prosodie, also insbesondere der 
Phrasengrenzenvorhersage und der Vorhersage akzentuierter 
Worter z.B. durch entsprechende Grundf requenzerzeugung, sind 
die folgenden Lerntechniken angewandt worden: Fur die Phra- 
sengrenzvorhersage Ansatze, die auf Klassif ikations- und Reg- 
ressionsbaumen (CARTs) basieren von Julia Hirschberg und Pi- 
lar Prieto: ^Training Intonational Phrasing Rules Automati- 
cally for English and Spanish Text-to-speech\ Speech Commu- 
nication, 18, S. 281-290, 1996, und Michell Q. Wang und Julia 
Hirschberg: ^Automatic Classification of Intonational Phra- 
sing Boundaries" 4 Computer Speech and Language, 6, S. 175-196, 
1992, Ansatze, die auf Hidden-Markov-Modellen (HMM) basieren 
von Alan W. Black und Paul Taylor: ^Assigning Phrase Breaks 
from Part-of-Speech Sequences", Eurospeech, 1997, und Ansat- 
ze, die auf Neuronalen Netzen basieren von Achim F. Muller, 
Hans Georg Zimmermann und Ralf Neuneier: „Robust Generation 
of Symbolic Prosody by a Neural Classifier Based on autoasso- 
ciators", ICASSP, 2000. Fiir die Vorhersage von Akzenten oder 
akzentuierten Wortern wurden CARTs verwendet von Julia 
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Hirschberg: „Pitch Accent in Context: Predicting Prominence 
from Text*, Artificial Intelligence, 63, S. 305-340, 1993, 
wohingegen Neuronale Netze eingesetzt wurden von Christina 
Widera, Thomas Portele und Maria Wolters: ^Prediction of Word 
Prominence" , Eurospeech 1997. Eine Interpretation des Ein- 
flusses der verwendeten Eingangsgroiien ist dabei in der Regel 
nicht moglich. Dies gilt insbesondere fur neuronale Netze. 
Fur den Fall der Grundf requenzerzeugung ( f 0-Generierung) ist 
dieses Problem auch bekannt. So werden zum Beispiel in Gerit 
P. Sonntag, Thomas Portele und Barbara Heruft: „Prosody Gene- 
ration with a Neural Network: Weighing the Importance of In- 
put Parameters", ICASSP, 1997, die EingangsgroBen heuristisch 
optimiert . 

Davon ausgehend liegt der Erfindung die Aufgabe zugrunde, 
Sprachverarbeitungsverf ahren dadurch zu verbessern, dass bei 
der Abbildung von Sprachmerkmale enthaltenden Eingangsgroiien 
auf Ausgangsgroflen eine hohere Beriicksichtigung der wichtigen 
Eingangsgroiien erfolgt. Weiterhin sollen ein Verf ahren, eine 
Anordnung und ein Computerprogrammprodukt angegeben werden, 
bei denen sich die Abbildung der EingangsgroUen auf die Aus- 
gangsgrolien genauer und schneller ermitteln lasst. 

Diese Aufgabe wird durch Verfahren, eine Anordnung und ein 
Computerprogrammprodukt mit den Merkmalen der unabhangigen 
Anspruche gelost. 

Dabei werden die Eingangsgroiien mit unterschiedlichen Gewich- 
ten auf die erzeugten Ausgangsgrofien abgebildet. Durch die 
Gewichte kann die Wichtigkeit einzelner Eingangsgroiien be- 
rucksichtigt werden. Die Gewichte lassen sich dabei in belie- 
biger Form ausbilden, so zum Beispiel durch Multiplikation 
mit einem Faktor, durch Addition eines Summanden oder durch 
eine beliebige Funktion, die bei Anwendung auf die Eingangs- 
grolie diese entsprechend abandert . 
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Gemafl der Erfindung werden die Gewichte nicht mehr heuris- 
tisch gefunden, sondern die Abbildung der erzeugten Ausgangs- 
grolie ( Ist-Zustand) wird mit der Abbildung der zu erzeugenden 
Ausgangsgrofie (Soll-Zustand) verglichen. Daraus wird eine An- 
derungsvorschrif t fur die Abbildung berechnet, wobei diese 
Anderungsvorschrift mit der Mafigabe, das heiflt ganz gezielt, 
so berechnet wird, dass die Gewichte von EingangsgroJien ver- 
ringert werden, die einen geringen Einfluss auf die Ausgangs- 
groiie haben. Ein geringer Einfluss heiflt, dass die Eingangs- 
grofie wenig relevante Inf ormationen tragt. Solch ein geringer 
Einfluss stellt sich zum Beispiel dadurch dar, dass sich bei 
einer groJien Anderung der EingangsgroJie die Ausgangsgrofie nur 
gering andert, oder dass sich die Ausgangsgrolie stark andert, 
obwohl die EingangsgroBe konstant bleibt. 

Insbesondere ist es vorteilhaft, die Verringerung der Gewich- 
te in Abhangigkeit vom Wert anderer Gewichte vorzunehmen. 
Dies ergibt sich daraus, dass nicht die absolute Grofie der 
Gewichte maftgebend ist, sondern die Gewichtung der Eingangs- 
groiien in Relation zueinander. Die anderen Gewichte konnen 
dabei selektiv oder vollstandig berucksichtigt werden. Ein 
Auf suminieren liber die anderen Gewichten ist dabei ebenso 
denkbar wie eine Mittelwertbildung . Je nach Auspragung der 
Gewichte konnen auch nur deren Betrage berucksichtigt werden, 
zum Beispiel indem diese quadriert werden. 

Die Verringerung der Gewichte lasst sich in einfacher Weise 
mit einer vorgebbaren Verringerungsrate steuern. Es ist des- 
halb vorteilhaft, eine solche in das Verfahren auf zunehmen . 

Enthalt die Abbildung mehrere Abbildungsschichten, zum Bei- 
spiel in Form von mehreren miteinander verknupften Funktionen 
oder auch in Form von Schichten eines Neuronalen Netzes, so 
wird die Gewichtung vorzugsweise bei der ersten Abbildungs- 
schicht vorgenommen. Dadurch erhalt man die am besten inter- 
pretierbaren Ergebnisse. 
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Insbesondere wird die Gewichtung einer EingangsgroBe vorge- 
nommen, bevor sie mit ein einer anderen EingangsgroBe ver- 
rechnet wird. Urn den Rechenbedarf zu verringern, konnen Ge- 
wichte, die unterhalb eines bestimmten Schwellwertes liegen, 
auf Null gesetzt werden. Das heiBt, dass die zugehorige Ein- 
gangsgroBe in der Abbildung nicht mehr beriicksichtigt wird. 

Sogenannte AusreiBer bei den EingangsgroBen, die besonderes 
hohe Werte aufweisen, lassen sich dadurch unterdrucken, dass 
die Abbildung fur die entsprechende EingangsgroBe eine Uber- 
tragungsfunktion aufweist, die fur betragsmaflig groBe Werte 
der EingangsgroBe eine geringe Steigung aufweist. 

Damit die AusreiBer nur einen geringen Einfluss auf die rest 
liche Abbildung haben, wird diese Ubertragungsf unktion bevor 
zugt als erstes auf die EingangsgroBen angewandt . Das heiBt, 
noch bevor die restlichen Teile der Abbildung angewandt wer- 
den. Als Ubertragungsf unktion eignet sich insbesondere eine 
sigmoide Ubertragungsf unktion, wie zum Beispiel der Tangens- 
hyperbolicus oder die logistische Funktion. 

Die Abbildung lasst sich ganz oder teilweise als Neuronales 
Netz realisieren. Dabei werden die EingangsgroBen iiber kunst 
liche Neuronen mit der mindestens einen durch die Abbildung 
erzeugten AusgangsgroBe verkniipf t . In dieser Ausgestaltung 
konnen die Gewichte mit den Gewichten des neuronalen Netzes 
identif iziert werden. 



Durch die Verringerung von Gewichten von EingangsgroBen, die 
einen geringen Einfluss auf die AusgangsgroBen haben, wird 
insbesondere die Generalisierungsf ahigkeit eines Neuronalen 
Netzes verbessert. 



Wird das neuronale Netz in einem Lernverf ahren trainiert, 
werden vorzugsweise der Vergleich der erzeugten Ausgangsgrofi 
mit der zu erzeugenden AusgangsgroBe und die Berechnung der 
Anderungsvorschrift aus dem Vergleich mit der MaBgabe, da 
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die Gewichte von Eingangsgrofien verringert werden, die einen 
geringen Einfluss auf die Ausgangsgrofie haben, wiederholt 
ausgefiihrt, so dass man iterativ zu einer Abbildung gelangt, 
bei der die erzeugten Ausgangsgrofien den zu erzeugenden Aus- 
gangsgroiJen immer mehr entsprechen und die Gewichte derjeni- 
gen Eingangsgrofien weiter verringert werden, die einen gerin- 
gen Einfluss auf die Ausgangsgrofie haben. 

Besonders bevorzugt wird dieses Verfahren mit mehreren Satzen 
von Sprachmerkmale enthaltenden Eingangsgrofien und diesen 
Satzen jeweils zugeordneten Satzen mindestens einer zu erzeu- 
genden Ausgangsgrofie durchgef uhrt . Hierdurch kann die Abbil- 
dung weiter verfeinert bzw. das Neuronale Netz besser trai- 
niert werden. 

Liegen mehrere Satze von Eingangsgrofien mit jeweils gleichar- 
tigen Eingangsgrofien, mindestens eine zu erzeugenden Aus- 
gangsgrofie und entsprechend mehrere Abbildungen vor, so -lasst 
sich das Verfahren in erf indungsgemafier Fortbildung dadurch 
verbessern, dass die Anderungsvorschrif ten fur die einzelnen 
Abbildungen so berechnet werden, dass sich dieselben Abbil- 
dungen fur unterschiedliche Satze von Eingangsgrofien ergeben. 
Dies ruhrt daher, dass bei Satzen gleichartiger Eingangsgro- 
fien die Abbildungen auf die mindestens eine durch die oder 
eine der Abbildungen zu erzeugende Ausgangsgrofie identisch 
sein miissen. 



Dies kann zum Beispiel dadurch erreicht werden, dass alle Ab- 
bildungen identisch oder nahezu identisch initialisiert wer- 
den und danach auf alle Abbildungen nur noch identische Ande- 
rungsvorschrif ten angewandt werden. 

Ausgehend von identisch initialisierten Anderungsvorschrif ten 
ergeben sich identische Anderungsvorschrif ten fur alle Abbil- 
dungen zum Beispiel dadurch, dass zunachst vorlaufige Ande- 
rungsvorschrif ten berechnet werden, bei deren Berechnung nur 
ein einzelner Satz von Eingangsgrofien, die zugeordnete Abbil- 
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dung, die erzeugte Ausgangsgrofle und die zu erzeugende Aus- 
gangsgrofle berucksichtigt wird. Diese vorlaufigen Anderungs- 
vorschriften berechnet man fur alle vorgegebenen Satze. Da- 
nach werden die . Mittelwerte der vorlaufigen Anderungsvor- 
schriften ermittelt. Diese ergeben die Anderungsvorschrif ten, 
mit denen dann die Abbildungen tatsachlich geandert werden. 

Auch bei diesem Verfahren lassen sich vorteilhaft Ubertra- 
gungsfunktionen zum Dampfen von Ausreiiiern und Neuronale Net- 
ze mit kunstlichen Neuronen und Gewichten einsetzen. Diese 
Ausgestaltungen ergeben sich aus den Unteranspruchen. 

Urn Speicherplatz zu sparen, werden die identischen Abbildun- 
gen vorzugsweise am gleichen Speicherort gespeichert. Daruber 
hinaus konnen die Abbildungen einen oder mehrere gemeinsame 
Abbildungsteile aufweisen. 

Weiterhin konnen die Schritte des Vergleichens der von den 
Abbildungen erzeugten Ausgangsgroiien mit den von den Abbil- 
dungen zu erzeugenden Ausgangsgroiien und die Schritte des Be- 
rechnens der Anderungsvorschrif ten fur die Abbildungen aus 
dem Vergleich, so dass sich dieselben Abbildungen fur unter- 
schiedliche Satze von EingangsgroBen ergeben, wiederholt wer- 
den. So lasst sich iterativ die Abbildung mit dem kleinsten 
Fehler bestimmen. 

Ziel der Erfindung ist es nicht nur, eine oder mehrere Abbil- 
dungen in der beschriebenen Weise zu berechnen, sondern die 
Abbildungen dariiber hinaus auch auf Eingangsgroiien anzuwen- 
den, von denen die durch die Abbildung zu erzeugenden Aus- 
gangsgroflen nicht bekannt sind. Dazu wird ein Verfahren ange- 
wandt, bei dem eine in der zuvor geschilderten Weise erzeugte 
Abbildung verwendet wird. 

Eine Anordnung, die eingerichtet ist, eines der geschilderten 
Verfahren auszufuhren, lasst sich zum Beispiel durch entspre- 
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chendes Programmieren eines Computers Oder einer Rechenanlag 
realisieren. 

Ein Computerprogrammprodukt, das Sof twarecodeabschnitte ent- 
halt, mit denen eines der geschilderten Verfahren auf einem 
Computer ausgefiihrt werden kann, lasst sich durch geeignete 
Implementierung des Verfahrens in einer Prograramiersprache 
ausfuhren. Die Sof twarecodeabschnitte werden dazu gespei- 
chert. Dabei wird unter einem Computerprogrammprodukt das 
Computerprogramm als handelbares Produkt verstanden. Es kann 
in beliebiger Form vorliegen, so zum Beispiel auf Papier, ei 
nem Computer lesbaren Datentragen oder iiber ein Netz ver- 
teilt . 

Weitere wesentliche Merkmale und Vorteile der Erfindung erge 
ben sich aus der Beschreibung eines Ausf uhrungsbeispiels an- 
hand der Zeichnung. Dabei zeigt 

Figur 1 den schematischen Aufbau eines Verfahrens zur Sprach- 
verarbeitung; 

Figur 2 den schematischen Aufbau eines Verfahrens zur Sprach- 
verarbeitung mit mehreren Satzen von Eingangsgroiien 
und 

Figur 3 die gemaii dem Verfahren zur Sprachverarbeitung mit 
mehreren Satzen von Eingangsgroiien berechneten Ge- 
wichte . 

In Figur 1 erkennt man die Architektur des Verfahrens zur 
Sprachverarbeitung. Dabei werden 1 Sprachmerkmale enthalten- 
den Eingangsgroiien x-j_ in Form eines Eingangsvektors x liber 
einen Eingang 1 dem Verfahren zugefuhrt. Uber eine Vorverar- 
beitungsschicht 2 werden die Eingangsgroiien gewichtet und auf 
transformierte Eingangsgroiien x-l' in Form eines Vektors abge- 
bildet. Die transf ormierten Eingangsgroiien x-l 1 werden am Aus- 
gang 3 der Vorverarbeitungsschicht 2 ausgegeben und einem Au- 
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toassoziator-Klassif ikator-Netzwerk 4 zugefiihrt. Der Aufbau 
eines solchen Autoassoziator-Klassif ikator-Netzwerks ist zum 
Beispiel in Achim F. Muller, Hans Georg Zimmermann und Ralf 
Neuneier: „Robust Generation of Symbolic Prosody by a Neural 
Classifier Based on autoassociators\ ICASSP, 2000, beschrie- 
ben. Durch das Autoassoziator-Klassif ikator-Netzwerk 4 werden 
die transformierten Eingangsgrolien Xj_ f und damit auch die 
Eingangsgroflen xj_ auf die erzeugten Ausgangsgrofien yj_ abge- 
bildet. Die Ausgangsgroflen yj_ werden schliefllich am Ausgang 5 
ausgegeben . 

Im in Figur 1 dargestellten Ausf tihrungsbeispiel enthalt die 
Abbildung 2, 4 somit eine Vorverarbeitungsstuf e 2 und ein Au- 
toassoziator-Klassif ikator-Netzwerk 4. Alternativ konnen die 
der Vorverarbeitungsstufe 2 zugewiesenen und im Folgenden be- 
schriebenen Aufgaben aber auch dem Autoassoziator- 
Klassif ikator-Netzwerk 4 zugewiesen werden. Dieses muss auch 
nicht als Autoassoziator-Klassif ikator-Netzwerk 4 ausgebildet 
sein, sondern es sind je nach dem durch die Sprachverarbei- 
tung zu losenden Problem auch andere Neuronale Netze mit ab- 
weichenden Net zwerkarchitekturen verwendbar. Neben Neuronalen 
Netzen konnen daruber hinaus auch weitere geeignete Abbildun- 
gen eingesetzt werden, insbesondere wenn diese durch Lernver- 
fahren trainierbar sind. Urn herauszuf inden, welche der 1 Ein- 
gangsgrolien x-j_ fur die spezifische Auf gabenstellung in der 
Sprachverarbeitung wichtig ist, ist die Vorverarbeitungs- 
schicht 2 zwischen dem Eingang 1 und dem Autoassoziator- 
Klassif ikator-Netzwerk 4 angeordnet. Die 1 EingangsgroJien Xj_ 
werden in dieser Vorverarbeitungsschicht 2 uber eine Diago- 
nalmatrix w diag = diag (w x ... wjj ubertragen, so dass man am 
Ausgang 3 der Vorverarbeitungsschicht 2 die transformierten 
Eingangsgroiien x T ^ erhalt. 

Die Verringerung der Gewichte wird im dargestellten Ausfuh- 
rungsbeispiel nur auf die Gewichte der Diagonalmatrix w diag 
angewandt. Dazu wird fur die Neuronen der Vorverarbeitungs- 
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schicht 2 die Identitatsf unktion oder der Tangenshyperbolicus 
als Aktivierungsf unktion gewahlt. 

Zu Beginn der Trainingsphase werden alle Elemente der diago- 
nalen Matrix w diag , das heiflt alle Gewichte w-^, mit 1 initia- 
lisiert. Somit werden die Eingangsgrofien x-^ ohne Modifikation 
zum Autoassoziator-Klassif ikator-Netzwerk 4 ubertragen. 

Zur Verringerung der Gewichte Wi der Eingangsgrofien xi, die 
einen geringen Einfluss auf die Ausgangsgrofien yj_ haben, wird 
nunmehr das im Folgenden beschriebene Verfahren angewandt . Zu 
einer Fehlerf unktion F(w) fur die Vorverarbeitungsschicht 2 
wird ein Strafterm P(w) hinzu addiert: 

F(w) = F(w) + A • P(w) 

Dabei lasst sich uber die vorgebbare Verringerungsrate 31 der 
Einfluss des Strafterms P (w) einstellen. Eine Moglichkeit der 
Wahl des Strafterms P(w) ist P (w) = Y<k w k ' mit k = 1 lm 

Damit wird die urn den Strafterm P(w) erweiterte Fehlerf unkti- 
on F (w) zu 



F(w) = F(w) + A ^2 



Wahrend der Lernphase werden die Gewichte zu jedem Iterati- 
onsschritt j unter Verwendung des Gradientenabstiegsver f ah- 
rens auf der Basis dieser erweiterten Fehlerf unktion trai- 
niert : 



w^ +1 = w j -r,VF(w) 
= w^-V r/F(w) + rf\ 



w 2 



Dies ist die Anderungsvorschrif t fur die Gewichte in der Vor- 
verarbeitungsstufe. Der Parameter ti wird ublicherweise als 
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Lernrate bezeichnet und steuert die Schrittweite, die bei der 
Anpassung der Gewichte verwendet wird. Vorzugsweise wird die 
Lernrate t\ und die Verringerungsrate X in alien Schritten 
konstant gehalten . 

5 

Es hat sich als wichtig herausgestellt , die Verringerungsrate 
X sorgfaltig zu wahlen. Die Verringerungsrate X sollte iibli- 
cherweise so klein wie moglich gewahlt werden. Dadurch ist 
der Einfluss der Lernrate r| in der Anderungsvorschrif t , die 

10 auf die Gewichte in der Vorverarbeitungsstuf e 2 angewandt 
wird, grofier als der Einfluss der Verringerungsrate X. So 
konnen nichtlineare Beziehungen erfasst werden, die in den 
Daten verborgen sind. Auf der anderen Seite sollte die Ver- 
ringerungsrate X grofl genug sein, so dass sie die Gewichte Wj_ 

15 in der Diagonalmatrix w c jj_ a g der Vorverarbeitungsstuf e 2 be- 
einf lusst . 



Nach mehreren Trainingsepochen und Anwendungen der Anderungs- 
vorschrift auf die Gewichte wj_ kann man das folgende Verhal- 

20 ten beobachten: Fur einige Gewichte ist der Einfluss der 

Lernrate rj gr.ofier als der Einfluss der Verringerungsrate X. 
Fur andere Gewichte ist jedoch der Einfluss der Verringe- 
rungsrate groiier als der Einfluss der Lernrate r\. Durch die 
richtige Wahl des Verhaltnisses der Verringerungsrate X zur 

25 Verringerungsrate r\ konnen einige Gewichte auf oder nahezu 
auf Null verringert werden, wahrend andere Gewichte eine 
nicht zu vernachlassigende Grofle behalten. Die Gewichte nahe 
Null oder unter einem bestiinmten Schwellwert werden als weni- 
ger wichtig fur den Trainingserf olg des Autoassoziator- 

30 Klassif ikator-Netzwerks 4 angesehen. Alle Gewichte des Auto- 
assoziator-Klassif ikator-Netzwerks werden ohne einen Straf- 
term P (w) zur gleichen Zeit wie die Gewichte in der Vorverar- 
beitungsstuf e 2 trainiert. 



35 Das Konzept des Hinzufiigens einer Vorverarbeitungsstuf e 2, 

die den Eingang 1 liber den Ausgang 3 der Vorverarbeitungsstu- 
fe 2 mit dem neuronalen Autoassoziator-Klassif ikator-Net zwerk 
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4 verbindet, wird durch das geschilderte Verfahren auf die 
Analyse von in Wortkategorief olgen (Part-of-Speech-Sequences ) 
angeordneten Wortkategorien ( Parts-of-Speech) als Eingangs- 
groBen Xi angewandt . Dadurch lasst sich der Einfluss bestimm- 
ter Wortkategorien auf die Phrasengrenzenvorhersage und/oder 
die Grundf requenzerzeugung und insbesondere die notwendige 
GroBe des Kontextf ensters berechnen. Das Kontextf enster be- 
stimmt, wie viele Satze von EingangsgroBen x-l in Form von 
Wortkategorien fur die symbolische Prosodie beriicksichtigt 
werden miissen. Ein Satz von EingangsgroBen wird in diesem 
Fall durch alle EingangsgroBen x^ gebildet, die zum gleichen 
Zeitpunkt t vorliegen. Eine Folge von Satzen von Eingangsgro- 
Ben bildet damit eine Zeitreihe fur diese Wortkategorien. 

Figur 2 zeigt eine Architektur fur das Verfahren zur Sprach- 
verarbeitung, die vorteilhaft eingesetzt werden kann, wenn 
mehrere Satze von EingangsgroBen vorliegen, die, jeweils 
gleichartige EingangsgroBen enthalten. Dies ist zum Beispiel 
bei den gerade geschilderten Zeitreihen der Fall. Dabei wird 
der Eingang 100-110 in Form von Eingangsclustern ausgebildet, 
so dass jedes Cluster fur einen Satz von EingangsgroBen zu- 
standig ist. Im dargestellten Beispiel wird ein Satz von Ein- 
gangsgroBen durch die jeweils zu einem Zeitpunkt gehorenden 
EingangsgroBen im Kontextf enster gebildet. Im Ausf uhrungsbei- 
spiel wurden fur das Kontextf enster funf Zeitschritte vor und 
ftinf Zeitschritte hinter dem aktuellen Zeitpunkt beriicksich- 
tigt. Jeder Satz von EingangsgroBen enthalt 35 Wortkategorien 
als EingangsgroBen. Diese 35 Wortkategorien sind von Satz zu 
Satz gleichartig. Die EingangsgroBen werden clusterweise uber 
entsprechende Vorverarbeitungsschichten 200-210, die in ihrem 
Aufbau jeweils der Vorverarbeitungsschicht aus dem vorherge- 
henden Ausf uhrungsbeispiel entsprechen, auf die Ausgange 300- 
310 der Vorverarbeitungsschichten 200-210 ubertragen. Von 
hier gelangen sie in ein gemeinsames Autoassoziator- 
Klassif ikator-Netzwerk 400, aus dem sie beim Ausgang 500 aus- 
gegeben werden. Das Autoassoziator-Klassif ikator-Netzwerk 400 



200017729 



12 

ist ein gemeinsamer und identischer Abbildungsteil aller Ab- 
bildungen . 

Wesentlich ist nun, dass die in den Vorverarbeitungsschichten 
5 200 bis 210 verwendeten Diagonalmatrizen von Gewichten nicht 
unabhangig voneinander berechnet werden. Vielmehr werden die 
Anderungsvorschrif ten fur diese Matrizen so berechnet, dass 
sich dieselben Abbildungen fur unterschiedliche, insbesondere 
alle, Satze von Eingangsgrolien ergeben. Dazu werden zunachst 

10 vorlaufige Anderungsvorschrif ten fur die in den Vorverarbei- 
tungsschichten 200-210 angewandten Gewichte berechnet, indem 
die Anderungsvorschrif ten fur jeden Satz von Eingangsgroflen 
und den jeweiligen in einer der Vorverarbeitungsschich- 
ten 200-210 angeordneten Teil der jeweils zugeordneten Abbil- 

15 dung unabhangig voneinander berechnet werden. Danach wird der 
Mittelwert der vorlaufigen Anderungsvorschrif ten gebildet, 
der eine gemeinsame Anderungsvorschrif t ergibt, die dann auf 
die Gewichte in alien Vorverarbeitungsschichten 200-210 ange- 
wandt wird. Sind die einander entsprechenden Gewichte in den 

20 Vorverarbeitungsschichten 200-210 gleich initialisiert wor- 

den, so ergibt sich aus dieser Vorgehensweise, dass die Ande- 
rungsvorschrif ten fur diese Gewichte so berechnet werden, 
dass sich dieselben Abbildungen fur die unterschiedlichen 
Satze von Eingangsgroiien ergeben. 

25 

Die Ergebnisse aus Experimenten zur Bestimmung der Grolie des 
Kontextf ensters fiir die Phrasengrenzenvorhersage sind in Fi- 
gur 3 dargestellt. Die Figur 3 zeigt die Werte der Gewichte 
w-L in der diagonalen Matrix w^-j^g. Dabei werden pro Zeit- 

30 schritt jeweils 35 Wortkategorien berucksichtigt . Die Anzahl 
der Zeitschritte betragt gemaii den obigen Ausfiihrungen 11. 
Der Mittelwert der Gewichte pro Ze it schritt ist j eweils durch 
einen horizontalen Balken dargestellt. Der Balken fur das 
Zentrum des Phrasengrenzenkontextf ensters ist fett darge- 

35 stellt. Wie man erkennen kann, ist die Position rechts neben 
dem Zentrum des Phrasengrenzenkontextf ensters , also die zeit- 
lich direkt nach der Phrasengrenze liegende Position, dieje- 
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nige mit dem grofieren Mittelwert. Das bedeutet, dass sie am 
wichtigsten fur die Phrasengrenzenvorhersage ist. Weiterhin 
kann man sehen, dass die Positionen, die mehr als zwei Zeit- 
schritte vom Zentrum entfernt sind, geringe Mittelwerte auf- 
weisen und damit fur die Phrasengrenzenvorhersage nicht rele- 
vant sind. 

Dadurch dass die Gewichte von Eingangsgroiien, die einen ge- 
ringen Einfluss auf die Ausgangsgroiie haben, verringert wer- 
den, steigt insbesondere die Generalisierungsf ahigkeit der 
verwendeten Abbildung und der hauf ig* bei Neuronalen Netzen 
auftretende Effekt des reinen Auswendiglernens bleibt aus . 
Die Anwendung einer in dieser Weise erstellten Abbildung auf 
vorherzusagende Phrasengrenzen liefert damit deutlich bessere 
Ergebnisse als Abbildungen nach dem Stand der Technik. 

Das Verfahren nach Figur 1 kann auch zur Analyse des Einflus- 
ses der Eingangsgroiien bei der Grundf requenzerzeugung einge- 
setzt werden. Fur diese Einsatzzweck wird das Autoassoziator- 
Klassif ikator-Netzwerk 4 in Figur 1 durch ein Neuronales Netz 
mit Standardarchitektur fur die Grundf requenzerzeugung der zu 
untersuchenden Sprache ersetzt. Ein solches Netz wird bei- 
spielsweise in Tao Jianhua, Cai Lianhong, Martin Holzapfel 
und Herbert Tropf: „A Neural Network based Prosodic Model of 
Mandarin TTS System*, ICSLPS, 2000, beschrieben. 

Das Verfahren zur Analyse des Einflusses der Eingangsgroiien 
bei der Grundf requenzerzeugung ist analog zum Verfahren fur 
die Analyse der notwendigen Grofie des Phrasengrenzenkontext- 
fensters ftlr die Anwendung in der symbolischen Prosodie. Die 
Eingangsgroiien reprasentieren allerdings in diesem Fall pho- 
netische und linguistische Inf ormationen . Diese sind im Ge- 
gensatz zu den Wortkategorien teilweise nicht symbolisch, 
sondern liegen in kontinuierlicher Form vor. Hierbei kann es 
vorkommen, dass einzelne Eingangsgroiien mit Ausreiiiern behaf- 
tet sind, das heiiit, dass sie betragsmaiiig sehr groiie Werte 
einnehmen konnen, die den Lernalgorithmus eines zu trainie- 
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renden Neuronalen Netzes storen. Urn dies zu verhindern, wird 
vorzugsweise eine Ubertragungsfunktion der Abbildung vorge- 
schaltet, die solche Ausreifler dampft. Dies lasst sich zum 
Beispiel dadurch realisieren, dass die Aktivierungsf unktion 
5 in der Vorverarbeitungsschicht 2 als sigmoide Funktion ge- 
wahlt wird. 

Allen Ausfuhrungsbeispielen liegt der Gedanke zugrunde, eine 
verbesserte Analyse von Sprache zu erzielen, indem unwichtige 

10 Sprachmerkmale automatisch herausgef unden und in ihrem Ein- 
fluss auf die Vorhersage zuriickgedrangt werden oder indem in 
Zeitreihen vorhandene Inf ormationen gemeinsam ausgewertet ^ ^ 

werden. Dabei liegt es auch im Bereich der Erfindung, die da- '^T 
durch gewonnenen Erkenntnisse bei der Sprachverarbeitung an- 

15 zuwenden, indem die durch das Verfahren bzw. durch eine An- 
ordnung, die eingerichtet ist, ein entsprechendes Verfahren 
auszufuhren, gewonnene Abbildung bei der Sprachsynthese 
und/oder Spracherkennung verwendet wird. 



20 



200017729 



15 

Patentanspruche 

1. Verfahren zur Sprachverarbeitung mit einer Abbildung (2, 
4,. 200-210, 400) von Sprachmerkmale enthaltenden Eingangsgro- 
Uen (x-j_) auf mindestens eine durch die Abbildung (2, 4, 200- 
210, 400) erzeugte Ausgangsgrofte (y-jj und mit mindestens ei- 
ner durch die Abbildung (2, 4, 200-210, 400) zu erzeugenden 
Ausgangsgrofle, bei dem 

a) die Eingangsgroflen (x^) mit unterschiedlichen Gewich- 
ten (wj_) auf die durch die Abbildung (2, 4, 200-210, 400) 
erzeugte Ausgangsgrofle (y^) abgebildet werden, 

b) die von der Abbildung (2, 4, 200-210, 400) erzeugte Aus- 
gangsgrofle (y-jj mit der von der Abbildung (2, 4, 200-210, 
400) zu erzeugenden Ausgangsgrofle verglichen wird, 

c) aus dem Vergleich eine Anderungsvorschrif t fur die Abbil- 
dung (2, 4, 200-210, 400) berechnet wird und 

d) die Anderungsvorschrif t zumindest teilweise mit der Maflgabe 
berechnet wird, dass die Gewichte (wjj von EingangsgroBen 
(x-l) verringert werden, die einen geringen Einfluss auf die 

Ausgangsgrofle (y-j_) haben. 

2. Verfahren nach Anspruch 1, 

bei dem die Anderungsvorschrif t zumindest teilweise so be- 
rechnet wird, dass die Gewichte (wj_) von Eingangsgroflen (x±) , 
die einen geringen Einfluss auf die Ausgangsgrofle (y ± ) haben, 
in Abhangigkeit vom Wert anderer der Gewichte (wj_) verringert 
werden . 

3. Verfahren nach Anspruch 2, 

bei dem die Anderungsvorschrif t zumindest teilweise so be- 
rechnet wird, dass die Gewichte (wj_) von Eingangsgroflen (x ± ) , 
die einen geringen Einfluss auf die AusgangsgroBe (y ± ) haben, 
urn einen Wert verringert werden, der von der Summe uber die 
Quadrate anderer der Gewichte (wj_) abhangt. 

4. Verfahren nach zumindest einem der vorhergehenden Anspru- 
che, 
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bei dem die Verringerung der Gewichte (w-jj mit einer vorgeb 1 - 
baren Verringerungsrate (X) erfolgt. 

5. Verfahren nach zumindest einem der vorhergehenden Anspru- 
che, 

bei dem die Abbildung (2, 4, 200-210, 400) mehrere Abbil- 
dungsschichten enthalt und die Gewichte (wj_) bei der ersten 
Abbildungsschicht angeordnet sind. 

6. Verfahren nach zumindest einem der vorhergehenden Ansprii- 
che, 

bei dem mindestens eines der Gewichte mit einem Wert, der un- 
ter einem Schwellwert liegt, auf Null gesetzt wird. 

7. Verfahren nach zumindest einem der vorhergehenden Anspru- 
che, 

bei dem die Abbildung (2, 4, 200-210, 400) fur mindestens ei- 
ne der Eingangsgroflen (xj_) eine Ubertragungsf unktion auf- 
weist, die fur betragsmaflig groiie Werte der mindestens einen 
der Eingangsgrolien (x-l) eine geringe Steigung aufweist. 

8. Verfahren nach zumindest Anspruch 7, 

bei dem die Abbildung (2, 4, 200-210, 400) mehrere Abbil- 
dungsschichten (2, 4, 200-210, 400) enthalt und die Ubertra- 
gungsf unktion in oder nahe der ersten Abbildungsschicht (2, 
200-210) angeordnet ist. 

9. Verfahren nach zumindest Anspruch 7, 

bei dem die Ubertragungsf unktion eine sigmoide Ubertragungs- 
f unktion ist. 

10. Verfahren nach zumindest einem der vorhergehenden Anspru- 
che, 

bei dem die Abbildung (2, 4, 200-210, 400) ein neuronales 
Netz enthalt. 

11. Verfahren nach zumindest Anspruch 10, 
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bei dem die Eingangsgroiien (xj_) uber kiinstliche Neuronen mit 

der mindestens einen durch die Abbildung (2, 4, 200-210, 400) 
erzeugten Ausgangsgroiie (y-j_) verknupft werden. 

12. Verfahren nach zumindest Anspruch 10, 

bei dem die Gewichte (wjj Gewichte im neuronalen Netz sind. 

13. Verfahren nach zumindest einem der vorhergehenden Ansprti- 
che, 

bei dem die Schritte, dass 

- die von der Abbildung (2, 4, 200-210, 400) erzeugte Aus- 
gangsgroiie (yj_) mit der von der Abbildung (2, 4, 200-210, 
400) zu erzeugenden Ausgangsgroiie verglichen wird, 

- aus dem Vergleich die Anderungsvorschrif t fur die Abbil- 
dung (2, 4, 200-210, 400) berechnet wird und 

- die Anderungsvorschrif t zumindest teilweise mit der Maiiga- 
be berechnet wird, dass die Gewichte (w-j_) von Eingangsgro- 
iien (x-j_) verringert werden, die einen geringen Einfluss 
auf die Ausgangsgroiie (yj_) haben, 

iterativ wiederholt werden. 

14. Verfahren zur Sprachverarbeitung mit Abbildungen (200- 
210, 400) mehrerer Satze von Sprachmerkmale enthaltenden Ein- 
gangsgroiien (xj_) auf mindestens eine durch eine der Abbildun- 
gen (200-210, 400) erzeugten Ausgangsgroiie (yj_) und mit min- 
destens einer durch eine der Abbildungen (200-210, 400) zu 
erzeugenden Ausgangsgroiie, insbesondere nach zumindest einem 
der Anspruche 1 bis 13, bei dem 

a) die von den Abbildungen (200-210, 400) erzeugte Ausgangs- 
groiie (yi) mit der von den Abbildungen (200-210, 400) zu 
erzeugenden Ausgangsgroiie verglichen wird, 

b) aus dem Vergleich Anderungsvorschrif ten fur die Abbildun- 
gen (200-210, 400) berechnet werden, 

c) die Anderungsvorschriften so berechnet werden, dass sich 
dieselben Abbildungen (200-210, 400) fur unterschiedliche 
Satze von Eingangsgroiien (x-j_) ergeben. 
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15. Verfahren nach zumindest Anspruch 14, 

bei dem die Satze von Eingangsgroiien (x-jj jeweils gleicharti- 
ge Eingangsgroiien (xj_) enthalten. 

5 16. Verfahren nach zumindest Anspruch 15, 

bei dem die Satze von Eingangsgroiien (xj_) durch eine Zeitrei- 
he jeweils gleichartiger Eingangsgroiien (x-jj gebildet werden. 

17. Verfahren nach zumindest einem der Anspriiche 14 bis 16, 
10 bei dem vorlaufige Anderungsvorschrif ten fur die Abbildun- 

gen (200-210, 400) jeweils einzelner Satze von Eingangsgroiien 
(x-[) berechnet werden und die Anderungsvorschrif ten aus Mit- 
telwerten der vorlaufige Anderungsvorschrif ten berechnet wer- 
den . 

15 

18. Verfahren nach zumindest einem der Anspriiche 14 bis 17, 
bei dem zumindest eine der Abbildungen (200-210, 400) fur 
mindestens eine der Eingangsgroiien (x-jj eine Ubertragungs- 
funktion aufweist, die fur betragsmaiiig groiie Werte der min- 

20 destens einen der Eingangsgroiien (x-^) eine geringe Steigung 
aufweist . 

19. Verfahren nach zumindest Anspruch 18, 

bei dem zumindest eine der Abbildungen (200-210, 400) mehrere 
25 Abbildungsschichten (200-210, 400) enthalt und die Ubertra- 

gungsfunktion in Oder nahe der ersten Abbildungsschicht (200- 
210) angeordnet ist. 

20. Verfahren nach zumindest Anspruch 18, 

30 bei dem die Ubertragungsf unktion eine sigmoide Ubertragungs- 
f unktion ist . 

21. Verfahren nach zumindest einem der Anspriiche 14 bis 20, 
bei dem zumindest eine der Abbildungen (200-210, 400) ein 

35 neuronales Netz enthalt. 

22. Verfahren nach zumindest Anspruch 21, 
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bei dem die Eingangsgrofien (xj_) iiber kunstliche Neuronen mit 
der mindestens einen durch die mindestens eine der Abbildun- 
gen (200-210, 400) erzeugten AusgangsgroJie (y±) verknupft 
sind. 

23. Verfahren nach zumindest einem der vorhergehenden Ansprii- 
che, 

bei dem die Schritte, dass 

- die von den Abbildungen (200-210, 400) erzeugte Ausgangs- 
groJie mit der von den Abbildungen (200-210, 400) zu erzeu- 
genden AusgangsgroJie verglichen werden, 

- aus dem Vergleich die Anderungsvorschrif ten fur die Abbil- 
dungen (200-210, 400) berechnet werden, 

- die Anderungsvorschriften so berechnet werden, dass sich 
dieselben Abbildungen (200-210, 400) fur unterschiedliche 
Satze von EingangsgrbJien (x-jj ergeben, 

iterativ wiederholt werden. 

24. Verfahren nach zumindest einem der Anspriiche 14 bis 23, 
bei dem die Abbildungen (200-210, 400) mindestens einen ge- 
meinsamer Abbildungsteil (400) aufweisen. 

25. Verfahren zur Sprachverarbeitung mit einer Abbildung (2, 
4, 200-210, 400) von Sprachmerkmale enthaltenden Eingangsgrb- 
fien (xj_) auf mindestens eine durch die Abbildung (2, 4, 200- 
210, 400) erzeugte AusgangsgroJie (y ± ) , bei dem eine nach ei- 
nem der Anspriiche 1 bis 24 erzeugte Abbildung (2, 4, 200-210, 
4 00) verwendet wird. 

26. Anordnung, die eingerichtet ist, ein Verfahren nach zu- 
mindest einem der Anspriiche 1 bis 25 auszufiihren. 

27. Computerprogrammprodukt, das Sof twarecodeabschnitte ent- 
halt, mit denen ein Verfahren nach zumindest einem der An- 
spriiche 1 bis 25 auf einem Computer ausgefuhrt werden kann. 
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Zusammenf as sung 

Verfahren zur Sprachverarbeitung 

Die Erfindung betrifft ein Verfahren zur Sprachverarbeitung, 
bei dem Sprachmerkmale enthaltende Eingangsgrofien auf Aus- 
gangsgroflen abgebildet werden. Bei der Abbildung werden die 
Eingangsgrofien gewichtet und/oder es werden gleiche Abbildun 
gen fur unterschiedliche Satze von Eingangsgroiien und mindes 
tens eine Ausgangsgroiie erzeugt. 
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Figur 1 
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Figur 3 
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